Loading...
机构名称:
¥ 3.0

函数:L(θ)=E[(rt+γmaxa′Q(st+1,a′;θ−)−Q(st,at;θ))2],其中损失函数

arXiv:2112.05779v1 [quant-ph] 2021 年 12 月 10 日

主要关键词

arXiv:2112.05779v1 [quant-ph] 2021 年 12 月 10 日PDF文件第1页

arXiv:2112.05779v1 [quant-ph] 2021 年 12 月 10 日PDF文件第2页

arXiv:2112.05779v1 [quant-ph] 2021 年 12 月 10 日PDF文件第3页

arXiv:2112.05779v1 [quant-ph] 2021 年 12 月 10 日PDF文件第4页

arXiv:2112.05779v1 [quant-ph] 2021 年 12 月 10 日PDF文件第5页

相关文件推荐

2021 年
¥14.0